ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报 新一期双轨评估体系(Dual Track)AGI进程(AGI Tracking)系列的科学问题解答测评集(xbench-ScienceQA)榜单,有6家模型发布的版本更新进入前10,包括GPT-5-high、Qwen3-235B-A22B-Thinking-2 模型 xbench scienceqa xbench月报 月 2025-09-22 10:16 2